事实证明,知识蒸馏是使用教师模型的预测来改善学生模型的一项有效技术。但是,最近的工作表明,在数据中的亚组中,平均效率的提高并不统一,尤其是在稀有亚组和类别上的准确性通常可能以准确性为代价。为了在可能遵循长尾分配的课程中保持强劲的表现,我们开发了蒸馏技术,这些技术是为了改善学生最差的级别表现而定制的。具体来说,我们为教师和学生介绍了不同组合的强大优化目标,并进一步允许在整体准确性和强大的最差目标之间进行任何权衡训练。我们从经验上表明,与其他基线方法相比,我们强大的蒸馏技术不仅可以实现更好的最差级别性能,而且还可以改善整体性能和最差的级别性能之间的权衡。从理论上讲,我们提供有关在目标培训健壮学生时使一名好老师的见解。
translated by 谷歌翻译